«Нейронная очистка» защитит системы безопасности от вредоносных закладок

26 апрель, 2019 - 08:55

Все больше государственных организаций и частных компаний внедряют системы безопасности, использующие распознавание лица и другие возможности искусственного интеллекта. Но нейронные сети в таких системах по-прежнему остаются вещью в себе.

Лучшие специалисты не могут объяснить как именно обучаемые модели приходят к своим заключениям, а значит, имеется возможность того, что в такую неконтролируемую систему кто-нибудь встроит бэкдор, для последующего использования в преступных целях.

Несмотря на то, что пока не задокументировано ни одного криминального инцидента с применением такого метода, потенциальную опасность подобных эксплойтов хорошо осознают исследователи из Чикагского университета. Они ведут разработку методологии выявления и обезвреживания таких «спящих ячеек» до того, как те сработают.

В статье, подготовленной к майскому форуму IEEE Symposium on Security and Privacy в Сан-Франциско (штат Калифорния), группа из университетской лаборатории SAND представляет первый обобщенный подход к защите от бэкдоров в нейронных сетях. Предложенная авторами техника «нейронной очистки» сканирует системы машинного обучениях в поисках характерных пизнаков спящей ячейки.

По заявлению исследователей, их защита не ограничивается обнаружением такой атаки, но позволяет выполнить обратную разработку и превратить закладку в ловушку для самого хакера. «Вы можете ждать, пока кто-нибудь не воспользуется ею, и запрограммировать отдельный фильтр, выдающий сообщение: ’Звоните в полицию’», — рассказал заведующий лабораторией, профессор Бен Чжао (Ben Zhao), ведущий специалист по машинному обучению и безопасности.

Экспериментальное ПО сравнивает между собой все возможные пары классификационных признаков. Затем оно рассчитывает: сколько пикселей в различных образцах нужно изменить, чтобы система отнесла изображение к другой категории, например, сигнал «Стоп» распознала как «Проезд разрешён».

Любая спящая ячейка, встроенная в систему, будет выделяться необычно малым числом пикселей в таком тесте: ошибочную класификацию может вызывать сережка особой формы или татуировка. Программа определяет активирующий закладку элемент изображения, а затем выясняет, что должна была делать эта ячейка и удаляет её из системы без ущерба для нормального функционирования классификационной модели.

Это первое в своём роде исследование привлекло внимание американских разведывательных служб, предоставивших финансирование дальнейшей разработки защиты от ИИ-шпионажа. В рамках этой программы лаборатория SAND займётся совершенствованием своего метода, улучшая его способности обнаружения более изощрённых бэкдоров и обобщая на нейросети, служащие для классификации других типов данных, включая звуки и текст.